Data Compression Techniques | 乌龙波霸七分甜

最近读了比较多的关于数据压缩的论文，具体的论文阅读记录后续会慢慢抽时间写出来，本文先对最近所读简单地进行一个归纳与总结。主要按照以下目录分几个方面来进行总结。

Motivation

而DRAM作为最常见的系统内存，存储密度低，简单来说就是，目前单个DRAM芯片的集成度已经接近极限，远不能满足大数据对内存容量TB级甚至PB级的需求。显然，数据压缩技术对于未来的系统是必不可少的。

为什么研究数据压缩，肯定是因为有好处，有前景，那么有哪些好处呢？

此外，在NVM和3D内存中尤其适用，能够：

Storage Compression(例如，缓存压缩)：减少数据存储能耗

Bandwidth Compression：减少数据移动能耗

就目前研究来看，什么情况下什么类型的数据经常被压缩？

以上情况下的数据有很大的冗余，能够考虑利用压缩来消除冗余，具体是什么类型的数据用下图程序段来举例说明。

images

目前有很多利用图片中相邻像素点值差异很小这一特点来进行的相关研究。

images

针对以上前四种数据类型，很多论文中有专业的名词来表示它们，分别是Other Patterns、Repeated Values、Narrow Values、Zero Values。

images

任何一种技术都不可能十全十美，那么压缩有啥坏处呢？

images

如何选择压缩数据块的大小，即压缩粒度怎么决定？越大越好or越小越好？

大的数据块大小作为压缩粒度：大块内会有更高的冗余，似乎还能够获得更高的压缩比，而且元数据存储开销也会比较低。但是即使只访问大块（例如，2KB）之中的某一个子块（例如，64B），也需要解压整个大块，产生无谓的解压开销，而这很影响性能。此外，在大块内想要找到特殊的模式（例如全为零）比较困难。
小的数据块大小作为压缩粒度：与以上相反，此优点为彼缺点吧！值得注意的是，tag元数据存储开销会大大增加。

因此可以看出，压缩粒度的选择需要根据不同类型应用程序动态选择。